查看原文
其他

生物信息百Jia软件(24):trf

王通 基因学苑 2022-03-29

编者按
trf可以用于串联重复序列的查找,因为这是基因组上的显著特征,因此查找起来并不难,这个串联重复序列也就是所谓的拷贝数变异CNV。那么为何不能用trf来找CNV呢,其实是完全可以的,现在没法这么用,是因为无法得到全基因组序列。

一、功能分类:

串联重复序列预测

二、软件官网:

http://tandem.bu.edu/trf/trf.html

三、软件介绍:

Trf是(Tandem Repeat Finder)的简称,用来搜寻DNA 序列中的串联重复序列(即相临的重复两次或多次特定核酸序列模式的重复序列)。重复单元可以从1bp 到500bp,DNA 查询序列大小可以超过5M。

四、下载安装:

wget http://tandem.bu.edu/trf/downloads/trf409.linux64
mv trf409.linux64 trf

五、软件使用:

trf File Match Mismatch Delta PM PI Minscore MaxPeriod
软件首先输入要预测串联重复序列的基因组文件,后面跟几组必须的值。
首先接file,
File: FASTA 格式的DNA 输入序列.
Match:匹配上
Mismatch:没匹配上
Delta: 插入的权重值。低的权重值将允许更多的“没匹配上”、“插入”的情况。匹配上的权重值“2”已被证明对“没匹配上”、“插
入”的罚分权重值在3-7 范围内都是有效的。“没匹配上”、“插入”的罚分权重值将被 自动解释为负值。“3”就比较宽松,“7”就比较严格。
对Match, Mismatch, Delta 的推 荐缺省值分别为2, 7, 7。
PM 是指比上的概率,可选择的PM 数值为80 和75,
PI 是插入的概率:可选择的PI 数值为10 和20。最好效果的参数是PM=80 和PI=10。参数PM=75 和PI=20 给出的结果与 “PM=80 和PI=10”的结果相似,但运行时间几乎慢了10 倍。
Minscore: 被匹配上的串联重复序列的最小分值。比如,我们设定了Match=2,Minscore=50, 那么就要求最少有25bp 被完全比上(比如,5bp 的重复单元,重复5 次)。
Maxperiod: 最大的重复单元bp 数。
下面是一些可选的选项
-m: 该参数将产生一个将串联重复序列屏蔽为N 的序列文件。
-f: 该参数将输出每一串联重复序列两侧200bp 的侧翼序列,输出到比对文件中。
-d: 该参数将产生一个屏蔽文件,记录了与列表文件一样的信息,及比对信息,可用于后续程 序的处理。

六、使用案例:

trf seq.fa 2 7 7 80 10 50 500 -f -d -m

七、结果说明:

最终会生成.mask .dat .html格式结尾的结果文件,
*.dat “-d”参数产生的屏蔽的串联重复序列信息文件
*.mask“-m” 参数产生的串联重复序列被屏蔽为N 的序列文件
*.html 记录串联重复序列信息的文件
*.txt.html 记录相关串联重复序列比对信息的文件

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存